home *** CD-ROM | disk | FTP | other *** search
/ Skunkware 5 / Skunkware 5.iso / man / cat.1 / waisindex.1 < prev    next >
Text File  |  1995-07-27  |  9KB  |  199 lines

  1.  
  2.  
  3.  
  4.      WWWWAAAAIIIISSSSIIIINNNNDDDDEEEEXXXX((((1111))))   TTTThhhhiiiinnnnkkkkiiiinnnngggg MMMMaaaacccchhhhiiiinnnneeeessss ((((SSSSuuuunnnn MMMMaaaayyyy 11110000 1111999999992222))))   WWWWAAAAIIIISSSSIIIINNNNDDDDEEEEXXXX((((1111))))
  5.  
  6.  
  7.  
  8.      NNNNAAAAMMMMEEEE
  9.           waisindex - Indexes files
  10.  
  11.      SSSSYYYYNNNNOOOOPPPPSSSSIIIISSSS
  12.           wwwwaaaaiiiissssiiiinnnnddddeeeexxxx [ -d index_filename ] [ -a ] [ -r ]
  13.           [ -mem mbytes ] [ -register ] [ -export ] [ -e [ file ] ]
  14.           [ -l log_level ] [ -pos | -nopos ] [ -nopairs | -pairs ]
  15.           [ -nocat ] [ -T type ] [ -t type ] [ -contents |
  16.           -nocontents ] filename filename ...
  17.  
  18.      DDDDEEEESSSSCCCCRRRRIIIIPPPPTTTTIIIIOOOONNNN
  19.           wwwwaaaaiiiissssiiiinnnnddddeeeexxxx creates an index of the words in files so that
  20.           they can be searched quickly (see waissearch).  The index
  21.           takes about as much disk space as the original text.  It
  22.           also creates a new source structure named index_filename.src
  23.           if none exists.
  24.  
  25.      OOOOPPPPTTTTIIIIOOOONNNNSSSS
  26.           ----dddd _i_n_d_e_x__f_i_l_e_n_a_m_e
  27.                     This is the base filename for the index files.
  28.                     Therefore if /usr/local/foo is specified, then the
  29.                     index files will be called /usr/local/foo.dct etc.
  30.                     The index should be stored on the local file
  31.                     system of the machine running waisindex.  It works
  32.                     over NFS, but it is much slower.
  33.  
  34.           ----aaaa        Append this index to an existing one.  Useful for
  35.                     incremental additions or updates.  This will only
  36.                     add onto an index, so that if a file has changed,
  37.                     it will get reindexed, but the old entries will
  38.                     not be purged.  Therefore, to save space, it is a
  39.                     good idea to reindex the whole set of files
  40.                     periodically.
  41.  
  42.           ----rrrr        Recursively index subdirectories.
  43.  
  44.           -mmmmeeeemmmm      How much main memory to use during indexing.  This
  45.                     variable will have a large effect on how fast
  46.                     indexing is done.
  47.  
  48.           ----rrrreeeeggggiiiisssstttteeeerrrr Register this database with the directory of
  49.                     servers.  You are encouraged to register
  50.                     databases, but only ones that will be consistently
  51.                     running.  The directory of servers is available to
  52.                     anyone that is on the internet or can phone in.
  53.  
  54.           ----eeeexxxxppppoooorrrrtttt   This causes the resulting source description file
  55.                     to include the host-name and tcp-port for use by
  56.                     the clients.  Otherwise the file contains no
  57.                     connection information, and is expected to be used
  58.                     only for local searches.
  59.  
  60.  
  61.  
  62.  
  63.      Page 1                                          (printed 7/27/95)
  64.  
  65.  
  66.  
  67.  
  68.  
  69.  
  70.      WWWWAAAAIIIISSSSIIIINNNNDDDDEEEEXXXX((((1111))))   TTTThhhhiiiinnnnkkkkiiiinnnngggg MMMMaaaacccchhhhiiiinnnneeeessss ((((SSSSuuuunnnn MMMMaaaayyyy 11110000 1111999999992222))))   WWWWAAAAIIIISSSSIIIINNNNDDDDEEEEXXXX((((1111))))
  71.  
  72.  
  73.  
  74.           ----eeee [ _f_i_l_e_n_a_m_e ]
  75.                     Redirect error output to pathname, if supplied, or
  76.                     to /dev/null.  Error output defaults to stderr,
  77.                     unless -s is selected, in which case it defaults
  78.                     to /dev/null.
  79.  
  80.           ----llll _l_o_g__l_e_v_e_l
  81.                     set logging level.  Currently only levels 0, 1, 5
  82.                     and 10 are meaningful: Level 0 means log nothing
  83.                     (silent).  Level 1 logs only errors and warnings
  84.                     (messages of HIGH priority), level 5 logs messages
  85.                     of MEDIUM priority (like indexing filename info).
  86.                     Level 10 logs everything.
  87.  
  88.           ----ppppoooossss ((((----nnnnooooppppoooossss))))
  89.                     Include (don't include - default) word position
  90.                     information in the index.  This will increase the
  91.                     index size, but will allow search engines to do
  92.                     proximity.
  93.  
  94.           ----nnnnooooppppaaaaiiiirrrrssss ((((----ppppaaaaiiiirrrrssss))))
  95.                     Don't build (build - the default) word pairs from
  96.                     consecutive capitalized words.
  97.  
  98.           ----nnnnooooccccaaaatttt    Inhibits the creation of a catalog.  This is
  99.                     useful for databases with a large number of
  100.                     documents, as the catalog contains 3 lines per
  101.                     document.
  102.  
  103.           ----ccccoooonnnntttteeeennnnttttssss ((((----nnnnooooccccoooonnnntttteeeennnnttttssss))))
  104.                     Include (exclude) the contents of the file from
  105.                     the index.  The filename and header will still be
  106.                     indexed.  Default is type depedant.
  107.  
  108.           ----TTTT ttttyyyyppppeeee   Sets the TYPE of the document to "type".
  109.  
  110.           ----tttt _t_y_p_e   This is the format of files that are handled by
  111.                     waisindex.  It is easy to parse a different
  112.                     format, but that has to be done by changing the
  113.                     source (ircfiles.c).  To find out the list of
  114.                     currently known types, execute the waisindex
  115.                     command with no arguments and it will list them.
  116.  
  117.           ffffiiiilllleeeennnnaaaammmmeeee ffffiiiilllleeeennnnaaaammmmeeee............
  118.                     These are the files that will be indexed according
  119.                     to the arguments above.  To insure the files are
  120.                     registered in the filename table correctly, it is
  121.                     advised that these be full paths (beginning with a
  122.                     /).  If the database is to be used from a machine
  123.                     other than the machine on which the index is
  124.                     created, this should be a machine-independant
  125.                     path.
  126.  
  127.  
  128.  
  129.      Page 2                                          (printed 7/27/95)
  130.  
  131.  
  132.  
  133.  
  134.  
  135.  
  136.      WWWWAAAAIIIISSSSIIIINNNNDDDDEEEEXXXX((((1111))))   TTTThhhhiiiinnnnkkkkiiiinnnngggg MMMMaaaacccchhhhiiiinnnneeeessss ((((SSSSuuuunnnn MMMMaaaayyyy 11110000 1111999999992222))))   WWWWAAAAIIIISSSSIIIINNNNDDDDEEEEXXXX((((1111))))
  137.  
  138.  
  139.  
  140.      SSSSEEEEEEEE AAAALLLLSSSSOOOO
  141.           waissearch(1), waisserver(1), waissearch-gmacs(1), xwais(1),
  142.           xwaisq(1)
  143.  
  144.           Wide Area Information Servers Concepts by Brewster Kahle.
  145.           Brewster@think.com
  146.  
  147.  
  148.      DDDDIIIIAAAAGGGGNNNNOOOOSSSSTTTTIIIICCCCSSSS
  149.           The diagnostics produced by the waisindex are meant to be
  150.           self-explanatory.
  151.  
  152.  
  153.      BBBBUUUUGGGGSSSS
  154.           It temporarily takes twice the space it needs for an index.
  155.  
  156.           Due to some compile time constants the document table is
  157.           limited to 16 Megabytes.  This limits the indexer to
  158.           databases with headlines that add up to less than 16
  159.           megabytes (since thats the principal component of the
  160.           table).  This is typically a problem for database types
  161.           where a record is essentially a headline (one_line, archie).
  162.  
  163.           See the note in ir/README in the wais distribution for more
  164.           detail.
  165.  
  166.  
  167.  
  168.  
  169.  
  170.  
  171.  
  172.  
  173.  
  174.  
  175.  
  176.  
  177.  
  178.  
  179.  
  180.  
  181.  
  182.  
  183.  
  184.  
  185.  
  186.  
  187.  
  188.  
  189.  
  190.  
  191.  
  192.  
  193.  
  194.  
  195.      Page 3                                          (printed 7/27/95)
  196.  
  197.  
  198.  
  199.